TF-IDF, acronimo di Term Frequency-Inverse Document Frequency, è una tecnica utilizzata nel campo del recupero dell'informazione per valutare l'importanza relativa di una parola all'interno di un documento rispetto a una collezione di documenti.
TF, ovvero Term Frequency, indica la frequenza di una parola all'interno di un documento. È calcolata contando quante volte una parola compare nel documento preso in esame. Maggiore è la frequenza, maggiore sarà il valore di TF per la parola.
IDF, ovvero Inverse Document Frequency, invece, misura quanto una parola sia rara nella collezione di documenti. È calcolato dividendo il numero totale di documenti nella collezione per il numero di documenti in cui la parola appare almeno una volta. Il risultato viene poi logaritmato per rendere i valori pesati in modo appropriato.
La formula per calcolare il TF-IDF di una parola in un documento è: TF-IDF = TF * IDF.
Il valore TF-IDF aumenta proporzionalmente al numero di volte in cui una parola compare nel documento e diminuisce in base alla rarità della parola nell'intera collezione. Quindi, questa tecnica punta a evidenziare le parole che sono rilevanti per un determinato documento, ma che appaiono poche volte nella collezione completa.
Il TF-IDF viene spesso utilizzato nell'elaborazione del linguaggio naturale per ridurre il peso delle parole comuni e dare maggiore importanza a quelle meno frequenti ma più significative all'interno di un testo. Viene utilizzato anche in molte applicazioni di text mining, come la classificazione di documenti, il clustering e la raccomandazione di contenuti.
Ne Demek sitesindeki bilgiler kullanıcılar vasıtasıyla veya otomatik oluşturulmuştur. Buradaki bilgilerin doğru olduğu garanti edilmez. Düzeltilmesi gereken bilgi olduğunu düşünüyorsanız bizimle iletişime geçiniz. Her türlü görüş, destek ve önerileriniz için iletisim@nedemek.page